La Muerte del Aprendizaje de Máquina

George G. Vega Yon, Ph.D.

University of Utah, US

Booz Allen Hamilton, US

Pueden descargar la presentación en https://ggv.cl/udd-ene2024

Sobre mi

  • Profesor de Investigación en Epidemiología de la Universidad de Utah.

  • Lead Scientist en la consultora Booz Allen Hamilton.

  • Doctor en Bioestadística de la Universidad del Sur de California (USC).

  • Magíster en Ciencias Sociales del Instituto Tecnológico de California (Caltech).

  • Magíster en Economía y Poíticas Públicas de la Universidad Adolfo Ibáñez (UAI).

Parte I: La Revolucion de la IA

Definición

“[L]a capacidad de un sistema para interpretar correctamente datos externos, y así aprender y emplear esos conocimientos para lograr tareas y metas concretas a través de la adaptación flexible.”

Kaplan and Haenlein (2019)

AI, Machine Learning, y Estadística

  • AI es un sub-campo del aprendizaje de máquina.

  • Para algunos, AI y ML sólo es esadística sin preocupaciones. (tiene algo de cierto!)

  • En estadística buscamos hacer inferencias (causalidad,) mientras que en AI y ML buscamos predecir (correlación.)

  • La AI Generative es un sub-campo de la AI donde el foco es “crear contenido” .

Lily Popova Zhuhadar, CC BY-SA 4.0 https://creativecommons.org/licenses/by-sa/4.0, via Wikimedia Commons

¿Por qué ahora?

  • Los modelos de redes neuronales que dan poder a la IA tienen más de …

  • Un componente fundamental: Las Redes Neuronales Artificiales.

  • Pero la tecnología necesaria tiene …

  • Más aún, estos modelos adquieren potencial sólo con grandes volúmenes de datos…

¿Cómo funcionan estos modelos?

En términos sencillos, todos los modelos de IA y aprendizaje de máquina funcionan de la siguiente manera:

  1. Obtener datos:

    1. Etiquetados: aprendizaje supervisado.
    2. No etiquetados: aprendizaje no supervisado.
  2. Diseñar modelo (arquitectura):

    1. Qué variables de la BD se utilizarán (selección).

    2. Como se procesarán los datos (hyperpárametros).

    3. Definir criterio para aproximar los datos (función de pérdida).

  3. Entrenar el modelo con set de entrenamiento (una parte de los datos).

  4. Evaluar la calidad del modelo sobre los datos no usados para entrenar (set de validación.)

¿Cuál es el estado del arte?

  • El último grito de la moda está con los llamados modelos de lenguaje grandes (Large Language Models.)

  • Estos se basan en una clase de modelos llamados modelos generativos (generative models.)

  • La clave: La función de pérdida de estos modelos se centra en predir sequencias.

  • También son implentados con redes neuronales.

Large language models

NVidia tiene una muy buena descripción de estos modelos (Lee 2023):

  • Datos grandes. Típicamente entrenados en con datos que incluyen casi todo lo que se ha escrito en internet en un largo periodo de tiempo.

  • Redes neuronales. Se pasa la información a un algorithmo de AI no supervisado.

  • Secuencias + patrones. Los LLM “aprenden” palabras, relaciones entre ellas, y conceptos. La idea clave: Contexto.

  • Que viene después. Así como las personas pueden “adivinar” la siguiente palabra (patrones), también los LLM.

Parte II: Los desafios

Hemos avanzado, pero…

  • Con toda la atención que ha recibido la AI/ML, la atención está volviendo a la teoría (inferencia) (Baker et al. 2018; Pearl 2019)

Caso 2: Derechos de Autor

  • El diario New York Times [NYT] que ChatGPT reproducia contenido literal del diario.

  • El problema es que aquel contenido estaba protegido por un PayWall.

  • NYT terminó demandando a OpenAI y Microsoft (dueños de ChatGPT) por violación de derechos de autor (CNNEE 2023; Muñoz-Ledo 2024).

Imagen reproducida del artículo Archive et al. (2023). ChatGPT fue capaz de extraer información completa de NYT.

Caso 3: Surreal

  • Puede generar imágenes realistas, pero no entiende de anatomía humana:

Imagen descargada de “Why AI-generated Hands Are the Stuff of Nightmares, Explained by a Scientist” (n.d.). Dall-E 2 intentando recrear manos humanas.

Caso 4: Pinocho

Un correo real que recibí durante el 2023:

Estimado Sr. Vega Yon,

Soy un académico en Alemania estudiando difusión en redes. Encontré (o mejor dicho, ChatGPT encontró) que su librería netdiffuseR aparentemente incluía una función llamada “multi.diffusion” para estimar exactamente ese caso. Parece que había un artículo de Wang, Robins y Pattison, “Competing Risks Diffusion in Networks: A Continuation Ratio Model with Time-Varying Effects” así como un Vignette llamado “competingrisks” disponible. Sin embargo, no pude encontrar ninguno de esos.

¿Cuál creen ustedes que fué el problema?…

¡Dicha función + paper + vignette nunca existieron!

Caso 5: Demasiado bueno

En resumen, nuestro trabajo suguiere que los datos utilizados para entrenar los mejores LLM pueden ser extraidos con técnicas simples

– Traducido al español del artículo Nasr et al. (2023)

Utilizando el texto: “fontanero de video juegos”, los autores del artículo lograron extraer la siguiente imagen:

Imagen descargada de “Generative AI Has a Visual Plagiarism Problem - IEEE Spectrum (n.d.)

Un texto simple: “captura de pantalla de peliculas populares”

Imagen descargada de “Generative AI Has a Visual Plagiarism Problem - IEEE Spectrum (n.d.)

  • El problema: Como los LLM tienen billones de parámetros, es muy fácil terminar memorizando datos de entrenamiento… eso no es aprendizaje.

Parte III: La teoría al rescate

Volviendo a lo Básico

  • Un motivo por el cual la AI y ML no se han tomado las ciencias por completo es claro (ver ejemplos anteriores).

  • El mínimo común de esos problemas: La falta de teoría (no teoría matemática).

  • Existe todo un campo en las ciencias de la computación para poder explicar los resultado de la IA/ML.

  • Incluso el ejército de los EEUU está invirtiendo en el asunto.

Volviendo a lo Básico (cont.)

  • Pero con tanto hype, es difícil alejarse de esto.

  • Sin embargo, algunos científicos han comenzado a proponer algo distinto: Casar los modelos mecanísticos con la AI/ML.

El aprendizaje de máquina mecanístico

Una idea simple

  • Las ciencias llevan cientos de años acumulando conocimiento.

  • En la física, por ejemplo, contamos con modelos que explican con gran detalle una parte importante de lo que observamos.

  • La AI/ML por otro lado tiene la ventaja cuando se trata de procesar cantidades masivas de datos.

Entonces, ¿Por qué no utilizamos ambos?

Caso 1: Detectando la temperatura de la superficie del agua

Caso 3: Mejorando los pronósticos de la influenza

Caso 2: Prediciendo lo que hacen los genes

  • En mi propia investigación me he visto motivado a utilizar la AI/ML.

  • Desarrollé un modelo mecanístico de la evolución de los genes.

  • La clave: Incorpora información sobre los procesos que llevan a aparición de nuevas funciones genénicas.

  • Mi contribución: Incluir mis predicciones mecanísticas en un modelo de AI/ML.

  • Resultado: El modelo combinado superó a ambos por XXX.

Discusión

Discusión

Referencias

Archive, View Author, Email the Author, Follow on Twitter, and Get author RSS feed. 2023. “New York Times Sues OpenAI, Microsoft for Seeking to ’Free-Ride’ on Its Articles to Train Chatbots.”
Baker, Ruth E., Jose-Maria Peña, Jayaratnam Jayamohan, and Antoine Jérusalem. 2018. “Mechanistic Models Versus Machine Learning, a Fight Worth Fighting for the Biological Community?” Biology Letters 14 (5): 20170660. https://doi.org/10.1098/rsbl.2017.0660.
CNNEE. 2023. El diario The New York Times demanda a OpenAI y Microsoft por infracción de derechos de autor.” CNN.
“Generative AI Has a Visual Plagiarism Problem - IEEE Spectrum.” n.d. https://spectrum.ieee.org/midjourney-copyright. Accessed January 14, 2024.
Ginsberg, Jeremy, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski, and Larry Brilliant. 2009. “Detecting Influenza Epidemics Using Search Engine Query Data.” Nature 457 (7232): 1012–14. https://doi.org/10.1038/nature07634.
Kandula, Sasikiran, and Jeffrey Shaman. 2019. “Reappraising the Utility of Google Flu Trends.” PLOS Computational Biology 15 (8): e1007258. https://doi.org/10.1371/journal.pcbi.1007258.
Kaplan, Andreas, and Michael Haenlein. 2019. “Siri, Siri, in My Hand: Who’s the Fairest in the Land? On the Interpretations, Illustrations, and Implications of Artificial Intelligence.” Business Horizons 62 (1): 15–25. https://doi.org/10.1016/j.bushor.2018.08.004.
Lazer, David, Ryan Kennedy, Gary King, and Alessandro Vespignani. 2014. “The Parable of Google Flu: Traps in Big Data Analysis.” Science 343 (6176): 1203–5. https://doi.org/10.1126/science.1248506.
Lee, Angie. 2023. “What Are Large Language Models and Why Are They Important?” NVIDIA Blog. https://blogs.nvidia.com/blog/what-are-large-language-models-used-for/.
Muñoz-Ledo, Rocío. 2024. OpenAI afirma que la demanda de The New York Times por derechos de autor "no tiene fundamento".” CNN.
Nasr, Milad, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr, and Katherine Lee. 2023. “Scalable Extraction of Training Data from (Production) Language Models.” arXiv. https://doi.org/10.48550/arXiv.2311.17035.
Pearl, Judea. 2019. “The Seven Tools of Causal Inference, with Reflections on Machine Learning.” Communications of the ACM 62 (3): 54–60. https://doi.org/10.1145/3241036.
“Why AI-generated Hands Are the Stuff of Nightmares, Explained by a Scientist.” n.d. https://www.sciencefocus.com/future-technology/why-ai-generated-hands-are-the-stuff-of-nightmares-explained-by-a-scientist. Accessed January 14, 2024.